65 research outputs found

    Une nouvelle approche mixte d'enrichissement de dimensions dans un schéma multidimensionnel en constellation Application à la biodiversité des oiseaux

    No full text
    International audienceLes entrepôts de données (DW) et les systèmes OLAP sont des technologies d'analyse en ligne pour de grands volumes de données, basés sur les be-soins des utilisateurs. Leur succès dépend essentiellement de la phase de conception où les exigences fonctionnelles sont confrontées aux sources de données (méthodologie de conception mixte). Cependant, les méthodes de conception existantes semblent parfois inefficaces, lorsque les décideurs définissent des exi-gences fonctionnelles qui ne peuvent être déduites à partir des sources de don-nées (approche centrée sur les données), ou lorsque le décideur n'a pas intégré tous ces besoins durant la phase de conception (approche centrée sur l'utilisa-teur). Cet article propose une nouvelle méthodologie mixte d'enrichissement de schémas en constellation, où l'approche classique de conception est améliorée grâce à la fouille de données dans le but de créer de nouvelles hiérarchies au sein d'une dimension. Un prototype associé est également présenté

    The Hierarchical Agglomerative Clustering with Gower index: a methodology for automatic design of OLAP cube in ecological data processing context

    No full text
    International audienceThe OLAP systems can be an improvement for ecological studies. In fact, ecology studies, follows and analyzes phenomenon across space and time and according to several parameters. OLAP systems can provide to ecologists browsing in a large dataset. One focus of the current research on OLAP system is the automatic design of OLAP cubes and of data warehouse schemas. This kind of works makes accessible OLAP technology to non information technology experts. But to be efficient, the automatic OLAP building must take into account various cases. Moreover the OLAP technology is based on the concept of hierarchy. Thereby the hierarchical clustering methods are often used by OLAP system designer. In this article, we propose using hierarchical agglomerative clustering with a metric that comes from ecological studies (the Gower similarity index) to build automatically hierarchical dimensions in an OLAP cube. With this similarity index we can perform a hierarchical clustering on heterogeneous datasets that contains qualitative and quantitative variables. We offer a prototypical automatic system which builds dimension for an OLAP cube and we measure the performances of this system according to the number of clustered individuals and according to the number of variables used for clustering. Thanks to these measures we can offer an approximation of performances with a large dataset. Thereby the Gower index in a hierarchical agglomerative clustering permits the management of heterogeneous dataset with missing values in a context of automatic building of OLAP cube. With this methodology, we can build new dimensions based on hierarchies in the data, which are not evident. The data mining methods can complete the expert knowledge during the design of an OLAP cube, because these methods can explain the inherent structure of the data

    Enrichissement de schéma multidimensionnel en constellation grâce à la Classification Ascendante Hiérarchique

    No full text
    National audienceLes hiérarchies sont des structures cruciales dans un entrepôt de don-nées puisqu'elles permettent l'agrégation de mesures dans le but de proposer une vue analytique plus ou moins globale sur les données entreposées, selon le niveau hiérarchique auquel on se place. Cependant, peu de travaux s'intéressent à la construction de hiérarchies, via un algorithme de fouille de données, pre-nant en compte le contexte multidimensionnel de la dimension concernée. Dans cet article, nous proposons donc un algorithme, implémenté sur une architecture ROLAP, permettant d'enrichir une dimension avec des données factuelles

    Large-scale nonlinear dimensionality reduction for network intrusion detection

    Get PDF
    International audienceNetwork intrusion detection (NID) is a complex classification problem. In this paper, we combine classification with recent and scalable nonlinear dimensionality reduction (NLDR) methods. Classification and DR are not necessarily adversarial, provided adequate cluster magnification occurring in NLDR methods like tt-SNE: DR mitigates the curse of dimensionality, while cluster magnification can maintain class separability. We demonstrate experimentally the effectiveness of the approach by analyzing and comparing results on the big KDD99 dataset, using both NLDR quality assessment and classification rate for SVMs and random forests. Since data involves features of mixed types (numerical and categorical), the use of Gower's similarity coefficient as metric further improves the results over the classical similarity metric

    UX Challenges in GDSS : An Experience Report

    Get PDF
    In this paper we present a user experience report on a Group Decision Support System. The used system is a Collaborative framework called GRoUp Support (GRUS). The experience consists in three user tests conducted in three different countries. While the locations are different, all three tests were run in the same conditions: same facilitator and tested process. In order to support the end-users. we teach the system in two different ways: a presentation of the system, and a video demonstrating how to use it. The main feedback of this experience is that the teaching step for using Collaborative tools in mandatory. The experience was conducted in the context of decision-making in the agriculture domain.Laboratorio de Investigación y Formación en Informática Avanzad

    Semi-automatic conception and implementation of data warehouses : application to ecological data

    No full text
    Cette thèse traite de la conception semi-automatique d'entrepôts de données et des cubes OLAP associés pour l'analyse de données écologiques.Les sciences biologiques, notamment l'écologie et l'agronomie, génèrent des données qui nécessitent un effort de collecte important : plusieurs années sont souvent nécessaires pour obtenir un jeu de données complets. De plus, les objets et les phénomènes étudiés par ces sciences sont complexes et nécessite l'enregistrement de nombreux paramètres pour être appréhendés. Enfin, le recueil de données complexes sur un temps long a pour conséquence un risque accru d’inconsistance au sein de ces données. Ainsi, ces sciences génèrent des données nombreuses, hétérogènes, voir inconsistantes.Il est donc intéressant de proposer aux scientifiques travaillant dans les sciences du vivant des systèmes d'information capable de stocker et de restituer leurs données, en particulier quand celles ci présentent un volume important. Parmi les outils existants, les outils de l'informatique décisionnelle, notamment les systèmes d'analyse en ligne (On-Line Analytical processing : OLAP), ont particulièrement retenu notre attention, car il s'agit de processus d'analyse de données sur de larges collections de données historiques (c'est-à-dire un entrepôt de données) afin d'offrir un support à la prise de décision. L'informatique décisionnelle propose des outils qui permettent à leurs utilisateurs d'explorer de larges volumes de données, dans le but de découvrir des modèles et des connaissances au sein de ces données, et ainsi d'éventuellement confirmer leurs hypothèses.Cependant, les systèmes OLAP sont des systèmes d'information complexes dont la mise en place nécessite des compétences avancées en informatique décisionnelle. Ainsi, bien qu'ils aient des caractéristiques intéressantes pour gérer et analyser des données multidimensionnelles, leur complexité les rend difficilement accessibles pour des utilisateurs potentiels, qui ne seraient pas des informaticiens professionnels.Dans la littérature, plusieurs travaux se sont penchés sur la conception automatique de schéma multidimensionnel, mais les exemples proposés par ces travaux concernaient des données classiques. Par ailleurs, d'autres articles traitent de la modélisation multidimensionnelle adaptée à des données complexes (inconsistance, données hétérogènes, intégration d'objets spatiaux, de textes, d'images au sein d'un entrepôt …) mais les méthodes proposées par ces travaux sont rarement automatique.C'est pourquoi l'objectif de ce travail de thèse est de proposer une méthode de conception d'entrepôt de données et des cubes OLAP associés la plus automatique possible. Cette méthode doit être capable de prendre en compte la complexité des données inhérente aux sciences biologiques.Pour tester les différents prototypes que nous avons proposé durant ce travail de thèse, nous avons disposé d'un jeu de données concernant l'abondance des oiseaux le long de la Loire. Ce jeu de données est structuré de la façon suivante : (1) nous disposons du recensement de 213 espèces d'oiseaux (décrites par un ensemble de facteurs qualitatifs, comme par exemple le régime alimentaire) en 198 points le long du fleuve pour 4 campagnes de recensement ; (2) chacun des 198 points est décrits par un ensemble de variables environnementales issues de différentes sources (relevés de terrain, images satellites, SIG). Ce sont ces variables environnementales qui posent le plus de questions en termes de modélisation multidimensionnelle. Ces données sont issues de différentes sources, parfois indépendantes des campagnes de recensement des oiseaux, et sont donc inconsistantes dans le temps et l'espace. De plus, ces données sont hétérogènes : elles peuvent se présenter sous forme de facteurs qualitatifs, quantitatifs ou encore d'objets spatiaux. Pour finir, ces données environnementales intègrent un grand nombre de facteurs (158 variables retenues) (...)This thesis concerns the semi-automatic design of data warehouses and the associated OLAP cubes analyzing ecological data.The biological sciences, including ecology and agronomy, generate data that require an important collection effort: several years are often required to obtain a complete data set. Moreover, objects and phenomena studied by these sciences are complex and require many parameter recording to be understood. Finally, the collection of complex data over a long time results in an increased risk of inconsistency. Thus, these sciences generate numerous and heterogeneous data, which can be inconsistent. It is interesting to offer to scientists, who work in life sciences, information systems able to store and restore their data, particularly when those data have a significant volume. Among the existing tools, business intelligence tools, including online analytical systems (On-Line Analytical processing: OLAP), particularly caught our attention because it is data analysis process working on large historical collections (i.e. a data warehouse) to provide support to the decision making. The business intelligence offers tools that allow users to explore large volumes of data, in order to discover patterns and knowledge within the data, and possibly confirm their hypotheses.However, OLAP systems are complex information systems whose implementation requires advanced skills in business intelligence. Thus, although they have interesting features to manage and analyze multidimensional data, their complexity makes them difficult to manage by potential users, who would not be computer scientists.In the literature, several studies have examined the automatic multidimensional design, but the examples provided by theses works were traditional data. Moreover, other articles address the multidimensional modeling adapted to complex data (inconsistency, heterogeneous data, spatial objects, texts, images within a warehouse ...) but the proposed methods are rarely automatic. The aim of this thesis is to provide an automatic design method of data warehouse and OLAP cubes. This method must be able to take into account the inherent complexity of biological data. To test the prototypes, that we proposed in this thesis, we have prepared a data set concerning bird abundance along the Loire. This data set is structured as follows: (1) we have the census of 213 bird species (described with a set of qualitative factors, such as diet) in 198 points along the river for 4 census campaigns; (2) each of the 198 points is described by a set of environmental variables from different sources (land surveys, satellite images, GIS). These environmental variables address the most important issue in terms of multidimensional modeling. These data come from different sources, sometimes independent of bird census campaigns, and are inconsistent in time and space. Moreover, these data are heterogeneous: they can be qualitative factors, quantitative varaibles or spatial objects. Finally, these environmental data include a large number of attributes (158 selected variables) (...)

    Conception et implémentation semi-automatique des entrepôts de données : application aux données écologiques

    No full text
    This thesis concerns the semi-automatic design of data warehouses and the associated OLAP cubes analyzing ecological data.The biological sciences, including ecology and agronomy, generate data that require an important collection effort: several years are often required to obtain a complete data set. Moreover, objects and phenomena studied by these sciences are complex and require many parameter recording to be understood. Finally, the collection of complex data over a long time results in an increased risk of inconsistency. Thus, these sciences generate numerous and heterogeneous data, which can be inconsistent. It is interesting to offer to scientists, who work in life sciences, information systems able to store and restore their data, particularly when those data have a significant volume. Among the existing tools, business intelligence tools, including online analytical systems (On-Line Analytical processing: OLAP), particularly caught our attention because it is data analysis process working on large historical collections (i.e. a data warehouse) to provide support to the decision making. The business intelligence offers tools that allow users to explore large volumes of data, in order to discover patterns and knowledge within the data, and possibly confirm their hypotheses.However, OLAP systems are complex information systems whose implementation requires advanced skills in business intelligence. Thus, although they have interesting features to manage and analyze multidimensional data, their complexity makes them difficult to manage by potential users, who would not be computer scientists.In the literature, several studies have examined the automatic multidimensional design, but the examples provided by theses works were traditional data. Moreover, other articles address the multidimensional modeling adapted to complex data (inconsistency, heterogeneous data, spatial objects, texts, images within a warehouse ...) but the proposed methods are rarely automatic. The aim of this thesis is to provide an automatic design method of data warehouse and OLAP cubes. This method must be able to take into account the inherent complexity of biological data. To test the prototypes, that we proposed in this thesis, we have prepared a data set concerning bird abundance along the Loire. This data set is structured as follows: (1) we have the census of 213 bird species (described with a set of qualitative factors, such as diet) in 198 points along the river for 4 census campaigns; (2) each of the 198 points is described by a set of environmental variables from different sources (land surveys, satellite images, GIS). These environmental variables address the most important issue in terms of multidimensional modeling. These data come from different sources, sometimes independent of bird census campaigns, and are inconsistent in time and space. Moreover, these data are heterogeneous: they can be qualitative factors, quantitative varaibles or spatial objects. Finally, these environmental data include a large number of attributes (158 selected variables) (...).Cette thèse traite de la conception semi-automatique d'entrepôts de données et des cubes OLAP associés pour l'analyse de données écologiques.Les sciences biologiques, notamment l'écologie et l'agronomie, génèrent des données qui nécessitent un effort de collecte important : plusieurs années sont souvent nécessaires pour obtenir un jeu de données complets. De plus, les objets et les phénomènes étudiés par ces sciences sont complexes et nécessite l'enregistrement de nombreux paramètres pour être appréhendés. Enfin, le recueil de données complexes sur un temps long a pour conséquence un risque accru d’inconsistance au sein de ces données. Ainsi, ces sciences génèrent des données nombreuses, hétérogènes, voir inconsistantes.Il est donc intéressant de proposer aux scientifiques travaillant dans les sciences du vivant des systèmes d'information capable de stocker et de restituer leurs données, en particulier quand celles ci présentent un volume important. Parmi les outils existants, les outils de l'informatique décisionnelle, notamment les systèmes d'analyse en ligne (On-Line Analytical processing : OLAP), ont particulièrement retenu notre attention, car il s'agit de processus d'analyse de données sur de larges collections de données historiques (c'est-à-dire un entrepôt de données) afin d'offrir un support à la prise de décision. L'informatique décisionnelle propose des outils qui permettent à leurs utilisateurs d'explorer de larges volumes de données, dans le but de découvrir des modèles et des connaissances au sein de ces données, et ainsi d'éventuellement confirmer leurs hypothèses.Cependant, les systèmes OLAP sont des systèmes d'information complexes dont la mise en place nécessite des compétences avancées en informatique décisionnelle. Ainsi, bien qu'ils aient des caractéristiques intéressantes pour gérer et analyser des données multidimensionnelles, leur complexité les rend difficilement accessibles pour des utilisateurs potentiels, qui ne seraient pas des informaticiens professionnels.Dans la littérature, plusieurs travaux se sont penchés sur la conception automatique de schéma multidimensionnel, mais les exemples proposés par ces travaux concernaient des données classiques. Par ailleurs, d'autres articles traitent de la modélisation multidimensionnelle adaptée à des données complexes (inconsistance, données hétérogènes, intégration d'objets spatiaux, de textes, d'images au sein d'un entrepôt …) mais les méthodes proposées par ces travaux sont rarement automatique.C'est pourquoi l'objectif de ce travail de thèse est de proposer une méthode de conception d'entrepôt de données et des cubes OLAP associés la plus automatique possible. Cette méthode doit être capable de prendre en compte la complexité des données inhérente aux sciences biologiques.Pour tester les différents prototypes que nous avons proposé durant ce travail de thèse, nous avons disposé d'un jeu de données concernant l'abondance des oiseaux le long de la Loire. Ce jeu de données est structuré de la façon suivante : (1) nous disposons du recensement de 213 espèces d'oiseaux (décrites par un ensemble de facteurs qualitatifs, comme par exemple le régime alimentaire) en 198 points le long du fleuve pour 4 campagnes de recensement ; (2) chacun des 198 points est décrits par un ensemble de variables environnementales issues de différentes sources (relevés de terrain, images satellites, SIG). Ce sont ces variables environnementales qui posent le plus de questions en termes de modélisation multidimensionnelle. Ces données sont issues de différentes sources, parfois indépendantes des campagnes de recensement des oiseaux, et sont donc inconsistantes dans le temps et l'espace. De plus, ces données sont hétérogènes : elles peuvent se présenter sous forme de facteurs qualitatifs, quantitatifs ou encore d'objets spatiaux. Pour finir, ces données environnementales intègrent un grand nombre de facteurs (158 variables retenues) (...

    Mesurer l’efficacité des enseignements par l’étude des rendements

    No full text
    International audienceLe champ des recherches concernant les pratiques enseignantes en étude de la langue demeure peu fertile (on citera entre autres : Bulea Bronckart et al. , 2018 ; Riou, 2017) et supporte peu de généralisations, la portée statistique semblant difficilement atteignable, pour des raisons pragmatiques. Par ailleurs, l’importante recherche Lire – Écrire menée par l’Ifé en 2010-2013 (Goigoux, 2015) a ouvert la voie méthodologique à des études quantitatives dans le domaine de la didactique. C’est dans ce cadre que la recherche REAlang1 s’est donné comme objectif, entre autres, d’évaluer la performance des classes de CE2, CM1 et CM22 concernant des savoirs grammaticaux et orthographiques fondamentaux, autour du verbe et de l’adjectif. L’objectif général de REAlang est de rendre compte des réalités d’enseignement-apprentissage de la langue en milieu scolaire ; pour ce faire, il s’agit de mettre en relation des pratiques observables avec une typologie de classe établie pour rendre compte du degré d’efficacité observée via des passations d’évaluations. L’enjeu méthodologique sur lequel nous allons précisément revenir ici est la conception et l’utilisation de différentes variables de rendement (performances d’élèves dans un domaine défini) dans le but d’établir une typologie de performances des classes, et donc, potentiellement, des enseignants.Le corpus a été constitué par le biais d’un test écrit : il s’agit de trois épreuves, administrées à l’identique deux fois, en septembre puis en janvier, à une population constante d’élèves. Les trois épreuves sont conçues dans le but de rendre compte des compétences et des connaissances des élèves concernant deux notions fondamentales de la grammaire scolaire3 : le verbe et l’adjectif. Les élèves ont ainsi successivement écrit un texte dicté, souligné les verbes puis les adjectifs dans un texte normé, défini ce qu’est un verbe puis ce qu’est un adjectif par le biais d’une production écrite4. Les cohortes d’élèves sont de 502 individus répartis dans 28 classes en CE2, 536 individus répartis dans 32 classes en CM1, 585 individus répartis dans 32 classes en CM2. L’ensemble des tests écrits a été soumis à un processus d’encodage numérique permettant de constituer une base de données exploitable par les logiciels de statistiques.Notre protocole décrit les performances des élèves par le biais de quatorze variables5, sur la pertinence desquelles nous aurons à discuter lors de cette présentation. Partant de là, nous avons utilisé trois méthodes d’investigation.Dans un premier temps, nous avons partitionné les populations d’élèves en usant d’un outil basé sur le critère d'information bayésien. Ce partitionnement permet d’observer des groupes d’élèves en fonction de leur performance selon tout ou partie des variables.Une autre méthode consiste à comparer des classes sélectionnées pour leurs performances à certaines variables selon la méthode des boites de Tukey (Le Guen, 2002). Cette comparaison permet d’établir plusieurs types de rendement au sein des classes, en s’appuyant sur une logique de partition des classes en quartiles.Enfin, nous avons comparé des classes et étudier leurs rendements selon un test inspiré de l’ANOVA de Friedman par rangs. Il s’agit de mesurer la moyenne des rangs des élèves d’une classe pour une ou plusieurs variables. Cette méthode permet notamment d’étudier le rendement des classes sur les résultats d’une épreuve donnée tandis que les deux méthodes précédentes visent à comparer des résultats sur des variables issues d’épreuves différentes.Cette exploration de nos données nous permet d’avancer une première série de résultats. Le plus important concerne la solidité du corpus constitué, puisque l’observation de certaines classes montre la fiabilité de l’évaluation construite : les variables permettent en bonne part d’inférer le travail effectué en classe en termes de contenus d’enseignement. Ce point devra être conforté par une observation directe et systématique des pratiques des enseignants.Nous montrerons également comment le jeu de données constitué peut permettre d’esquisser la progression des apprentissages au cours du curriculum, et donc de situer les performances des élèves par rapport à des repères pragmatiques, réalistes. Cette réflexion s’avère importante, en réaction à des positions institutionnelles qui mettent en difficulté enseignants et élèves, construisant des objectifs grammaticaux inatteignables pour soutenir des visées orthographiques illusoires

    From crowdsourced requirements to analysis of VGI data: Open issues (Ateliers INFORSID 2018, Nantes)

    No full text
    International audienceWith the advent of Volunteered Geographic Information, more and more citizens collect geospatial data in several application domains (urban, agriculture, etc.). Usually, volunteers are data producers and passive consumer of VGI data analysis provided by organisms/enterprises that manage collected data. This “bottom-up data supply and top-down data analysis” paradigm represents an important barrier for the development of volunteer observatories, since data producers feel excluded from the decision-making process. Therefore, in this position paper we propose a new Spatial OLAP (SOLAP) system where volunteers are active participants to the definition of SOLAP applications. We detail open issues and related works of this new GeoBusiness Intelligence systems

    The Tucker tensor decomposition for data analysis: capabilities and advantages

    No full text
    International audienceTensors are powerful multi-dimensional mathematical objects, that easily embed various data models such as relational, graph, time series, etc. Furthermore, tensor decomposition operators are of great utility to reveal hidden patterns and complex relationships in data. In this article, we propose to study the analytical capabilities of the Tucker decomposition, as well as the differences brought by its major algorithms. We demonstrate these differences through practical examples on several datasets having a ground truth. It is a preliminary work to add the Tucker decomposition to the Tensor Data Model, a model aiming to make tensors data-centric, and to optimize operators in order to enable the manipulation of large tensors
    • …
    corecore